51 research outputs found
Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario
La tesis que se presenta en este documento, se enmarca en el área del Reconocimiento
Automático de Habla y específicamente en el diseño de sistemas de reconocimiento de gran
vocabulario. En todos los casos, la tecnología de base en lo que se refiere al modelado, la aportan los
modelos ocultos de Markov que, hoy por hoy, representan el paradigma de modelado dominante. En
concreto, se utilizarán técnicas de modelado discreto y semicontinuo, dependiente e independiente del
contexto.
En primer lugar, y a partir de una clasificación de alternativas arquitecturales en el diseño de
sistemas de reconocimiento se hace un estudio teórico de la formulación del comportamiento de
arquitecturas multi-módulo, tanto en coste computacional como en tasa de reconocimiento, definiendo
una metodología de diseño para determinar la adecuación de módulos particulares de cara a su uso
conjunto, que es validada con la experimentación correspondiente.
Igualmente, se hace énfasis en el estudio y evaluación de algunas de las alternativas de
compresión del espacio de búsqueda, estableciendo relaciones de compromiso entre coste y tasa, que
es el binomio decisivo a la hora de abordar el diseño de sistemas en tiempo real. Se presentan estudios
sobre distintas estrategias de organización del espacio de búsqueda orientadas a exploración y
búsqueda con algoritmos de programación dinámica: árboles y grafos, deterministas y no
deterministas, proponiendo soluciones prometedoras para incrementar la tasa de inclusión obtenible
sobre estructuras de grafo (en las que la compresión del espacio de búsqueda produce peores resultados
que con la búsqueda lineal o en árbol). Especialmente importante es el trabajo sobre estimación de
listas variables de preselección, analizando métodos paramétricos y no paramétricos, centrándonos en
el uso de redes neuronales como mecanismo estimador. Se ha propuesto una metodología de selección
de parámetros de entrada, topologías y métodos de codificación, en base a su potencia discriminativa
en una tarea simplificada. Dicha propuesta que ha sido ampliamente evaluada y comparada con el
enfoque tradicional de uso de listas fijas, mostrando la consistente mejora tanto en tasa como en coste
computacional conseguible con el uso de redes neuronales. Dicho estudio sobre listas variables ha sido
extendido de forma natural al problema de estimación de fiabilidad de hipótesis, habiéndose
aprovechando estos resultados, de nuevo, para la estimación de longitudes de listas, obteniendo
también buenos resultados.
En lo que respecta al repertorio de unidades de reconocimiento y a la composición de los
diccionarios usados (en cuanto al uso de múltiples pronunciaciones), se aplican, evalúan y comparan
métodos dirigidos por datos y basados en conocimiento. En el apartado de introducción de variantes de
pronunciación se ha discutido ampliamente la problemática de contar con bases de datos
representativas y haciendo énfasis en la importancia de atender y evaluar las mejoras marginales
obtenidas con algunos de estos métodos.
La evaluación de los resultados es planteada cuidadosamente, sobre dos tareas radicalmente
distintas: habla telefónica independiente del locutor y habla aislada dependiente, ambas usando gran
vocabulario (hasta 10000 palabras), lo que permite obtener conclusiones y claves de diseño para cada
una de ellas, con lo que se consigue una generalización más fundamentada de su bondades o perjuicios.
En este sentido se aplican análisis de validez y relevancia estadística que pongan en su justo sitio las
mejoras o degradaciones observadas. En los procesos de evaluación se han propuesto nuevas métricas
y mecanismos originales de comparación
SD-TEAM: Interactive Learning, Self-Evaluation and Multimodal Technologies for Multidomain Spoken Dialog Systems
Speech technology currently supports the development of dialogue systems that function in limited domains for which they were trained and in conditions for which they were designed, that is, specific acoustic conditions, speakers etc. The international scientific community has made significant efforts in exploring methods for adaptation to different acoustic contexts, tasks and types of user. However, further work is needed to produce multimodal spoken dialogue systems capable of exploiting interactivity to learn online in order to improve their performance. The goal is to produce flexible and dynamic multimodal, interactive systems based on spoken communication, capable of detecting automatically their operating conditions and especially of learning from user interactions and experience through evaluating their own performance. Such ?living? systems will evolve continuously and without supervision until user satisfaction is achieved. Special attention will be paid to those groups of users for which adaptation and personalisation is essential: amongst others, people with disabilities which lead to communication difficulties (hearing loss, dysfluent speech, ...), mobility problems and non-native users. In this context, the SD-TEAM Project aims to advance the development of technologies for interactive learning and evaluation. In addition, it will develop flexible distributed architectures that allow synergistic interaction between processing modules from a variety of dialogue systems designed for distinct tasks, user groups, acoustic conditions, etc. These technologies will be demonstrated via multimodal dialogue systems to access to services from home and to access to unstructured information, based on the multi-domain systems developed in the previous project TIN2005-08660-C04
HIFI-AV: An Audio-visual Corpus for Spoken Language Human-Machine Dialogue Research in Spanish
In this paper, we describe a new multi-purpose audio-visual database on the context of speech interfaces for controlling household electronic devices. The database comprises speech and video recordings of 19 speakers interacting with a HIFI audio box by means of a spoken dialogue system. Dialogue management is based on Bayesian Networks and the system is provided with contextual information handling strategies. Each speaker was requested to fulfil different sets of specific goals following predefined scenarios, according to both different complexity levels and degrees of freedom or initiative allowed to the user. Due to a careful design and its size, the recorded database allows comprehensive studies on speech recognition, speech understanding, dialogue modeling and management, microphone array based speech processing, and both speech and video-based acoustic source localisation. The database has been labelled for quality and efficiency studies on dialogue performance. The whole database has been validated through both objective and subjective tests
A Contextual GMM-HMM Smart Fiber Optic Surveillance System for Pipeline Integrity Threat Detection
This paper presents a novel pipeline integrity surveillance system aimed to the detection and classification of threats in the vicinity of a long gas pipeline. The sensing system is based on phase-sensitive optical time domain reflectometry ( -OTDR) technology for signal acquisition and pattern recognition strategies for threat identification. The proposal incorporates contextual information at the feature level in a Gaussian Mixture Model-Hidden Markov Model (GMM-HMM)-based pattern classification system and applies a system combination strategy for acoustic trace decision. System combination relies on majority voting of the decisions given by the individual contextual information sources and the number of states used for HMM modelling. The system runs in two different modes: (1) machine+activity identification, which recognizes the activity being carried out by a certain machine, and (2) threat detection, aimed to detect threats no matter what the real activity being conducted is. In comparison with the previous systems based on the same rigorous experimental setup, the results show that the system combination from the contextual feature information and the GMM-HMM approach improves the results for both machine+activity identification (7.6% of relative improvement with respect to the best published result in the literature on this task) and threat detection (26.6% of relative improvement in the false alarm rate with 2.1% relative reduction in the threat detection rate).European CommissionMinisterio de Economía y CompetitividadComunidad de Madri
Proyecto MENTOR en la ETSI de Telecomunicación: Cinco Años de Experiencia.
Las ideas preliminares acerca de la necesidad de desarrollar los mecanismos de asistencia al alumno en al ETSI de Telecomunicación de la UPM surgieron a raíz del informe final de Evaluación de la Calidad de la Titulación de Ingeniero de Telecomunicación de la UPM. en el que se identificaba como punto débil la existencia de" alumnos insuficientemente informados" y como propuesta de mejora "estudiar nuevas formas de asistencia al alumno y potenciar las tutorías". Tras ese estudio, se creó un grupo de trabajo que abordó varias tareas en esa línea, y cuyos trabajos culminaron en el curso 2001-2002 con la propuesta de una iniciativa para planificar y desarrollar un plan de memorias por compañeros en la Escueta, que fue finalmente implantado en el curso2002-2003, extendiéndose en los años sucesivos a otras Escuelas de nuestra Universidad
Evaluation of a Spoken Dialogue System for controlling a Hifi audio system
In this paper a Bayesian Networks, BNs, approach to dialogue modelling [1] is evaluated in terms of a battery of both subjective and objective metrics. A significant effort in improving the contextual information handling capabilities of the system has been done. Consequently, besides typical dialogue measurement rates for usability like task or dialogue completion rates, dialogue time, etc. we have included a new figure measuring the contextuality of the dialogue as the number of turns where contextual information is helpful for dialogue resolution. The evaluation is developed through a set of predefined scenarios according to different initiative styles and focusing on the impact of the user’s level of experience
Generación de una voz sintética en Castellano basada en HSMM para la Evaluación Albayzín 2008: conversión texto a voz
Este artículo describe el proceso de generación de una voz
en castellano utilizando el corpus UPC ESMA de UPC
proporcionado por la Evaluación Albayzín 2008: Conversión
Texto a Voz. Se ha implementado una voz basada
en selección de unidades mediante el paquete Multisyn
de Festival y otra basada en Hidden Semi-Markov Models
(HSMM) mediante HTS. Tras una breve evaluación
de la calidad de ambas voces, se detallan las características
principales de la voz basada en HSMM, sistema final
presentado a la evaluación
Utilización de prácticas con gráficos 3D animados en la enseñanza de la programación orientada a objetos
Se presenta una experiencia real basada en la utilización de prácticas con gráficos animados en tres dimensiones en la enseñanza de la programación orientada a objetos, indicando los resultados obtenidos tanto en relación al aprendizaje como en la motivación de los alumnos
SD-TEAM: interactive learning, self-evaluation and multimodal technologies for multidomain spoken dialogue systems
Este proyecto está financiado por el Ministerio de Ciencia e Innovación del Gobierno de España, mediante el programa TIN2008-06856-C05-01
Propuesta metodológica para la mejora de la calidad y la excelencia de la educación superior en informática mediante el fomento del trabajo en equipo
Se presentan las ideas exploradas y aplicadas y los resultados obtenidos durante el curso 2001/02 con la intención de fomentar el trabajo en equipo entre los estudiantes de primero de Ingeniería en Informática de la Universidad de Alcalá (UA). El campo de trabajo elegido ha sido el de las asignaturas de Laboratorio de Programación, dado su carácter eminentemente práctico que permite el trabajo en equipo como forma natural de desarrollo
- …